当转换和奖励函数未知时,马尔可夫决策过程是现代强化学习领域的基础数学形式化。我们推导出一个伪布尔成本函数,它相当于离散、有限、折现马尔可夫决策过程的 K 自旋汉密尔顿表示,具有无限的视界。这个 K 自旋汉密尔顿提供了一个起点,可以使用启发式量子算法(例如绝热量子退火和近期量子硬件上的量子近似优化算法)来求解最优策略。在证明我们的汉密尔顿的变分最小化等同于贝尔曼最优条件时,我们建立了与经典场论的有趣类比。除了通过模拟和量子退火与经典 Q 学习进行概念验证计算以证实我们的公式外,我们还分析了在量子硬件上解决汉密尔顿所需的物理资源的扩展。
![arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第1页](/bimg/a/a98cc165b7c07192d67b1cf88152f9901013dacf.webp)
![arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第2页](/bimg/0/0b8ac656df041addccad55800d9930930f9c1a80.webp)
![arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第3页](/bimg/7/79b44a5f1fb1e0dbd5142f56f5a0558f8ca68cce.webp)
![arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第4页](/bimg/d/d4027b7e4a47f6b09d154262af817f29654e3ea7.webp)
![arXiv:2004.06040v1 [quant-ph] 2020 年 4 月 13 日 - NSF-PARPDF文件第5页](/bimg/d/ded46f5641a05c6b16779cf11381fc06d941ee30.webp)
